Pretraining de modelos de lenguaje con datos limitados: regularización y escalado
Nuevo estudio propone regularización MIR y ley de escalado SoftQ para pretraining con datos limitados, logrando mejoras equivalentes a 1.3x más datos únicos.
Nuevo estudio propone regularización MIR y ley de escalado SoftQ para pretraining con datos limitados, logrando mejoras equivalentes a 1.3x más datos únicos.